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ZUSAMMENFASSUNG 

Erkennung einer in buchstabierter Form vorliegenden Sprachaufierungs eingabe 

Die Erfindung betrifft ein Verfahren zur Erkennung einer in buchstabierter Form vorlie- 
genden Sprachaufierungseingabe (s) mit einer ersten Verarbeitungsstufe, in der mittels 
5 einer auf Hidden Markov Modellen basierenden Buchstaben-Spracherkennungseinheit (2) 
eine korrespondierende Buchstabenfolge (r) geschatzt wird, und mit einer zweiten Verar- 
beitungsstufe (3), in der unter Verwendung eines statistischen Buchstabenfolgemodells (4) 
und eines statistischen Modells (5) fur die Spracherkennungseinheit (2) das von der 
ersten Verarbeitungsstufe gelieferte Schatzergebnis (r) nachverarbeitet wird, wobei bei der 
10 Nachverarbeitung die Methode der dynamische Programmierung eingesetzt wird. 

Um robuste und effiziente Spracherkennungsprozeduren fur die Anwendung von Sprach- 
signalen zur Systemsteuerung, wird vorgeschlagen, dafi die der dynamischen Programmie- 
rung zugrundeliegende Gitterstruktur, deren Knotenpunkte zur Zuordnung zu akkumu- 
15 lierten Wahrscheinlichkeitswerten vorgesehen sind, in eine Baumstruktur umgesetzt wird 
und dafi bei der Suche nach einem optimalen Baumpfad der A -Algorithmus eingesetzt 
wird. 

Es wird auch einVerfahren vorgeschlagen, beim dem im Rahmen einer Spachsteuerung 
20 eine Eingabe eines als Steuersignal dienenden ganzen Wortes und eine Eingabe wenigstens 
eines Teils dieses Wortes in buchstabierter Form vorgesehen ist, wobei das Ergebnis der 
Buchstaben-Spracherkennung im Rahmen der Wort-Spracherkennung verwendet wird. 




Fig. 4 
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BESCHREIBUNG 

Erkennung einer in buchstabierter Form vorliegenden Sprachaufierungseingabe 

Die Erfindung betrifft ein Verfahren zur Erkennung einer in buchstabierter Form vorlie- 
genden Sprachaufierungseingabe mit einer ersten Verarbeitungsstufe, in der mittels einer 
5 auf Hidden Markov Modellen basierenden Buchstaben-Spracherkennungseinheit eine 
korrespondierende Buchstabenfolge geschatzt wird, und mit einer zweiten Verarbeitungs- 
stufe, in der unter Verwendung eines aus dem Vokabular abgeleiteten statistischen 
Buchstabenfolgemodells und eines statistischen Modells fur die Spracherkennungseinheit 
das von der ersten Verarbeitungsstufe gelieferte Schatzergebnis nachverarbeitet wird, wobei 
10 bei der Nachverarbeitung die Methode der dynamischen Programmierung eingesetzt wird. 

Ein solches Verfahren ist beispielsweise aus der US 5,799,065 im Rahmen der automati- 
schen Herstellung von Telefonverbindungen durch Spracheingaben bekannt. Ein Anrufer 
gibt dabei nach entsprechender Aufforderung den Namen des gewunschten anzurufenden 

15 anderen Teilnehmers in kontinuierlich buchstabierter Form ein. Die Eingabe wird einer 

auf HMM (Hidden Markov Model) verwendenden Spracherkennungseinheit weiterverar- 
beitet, wobei auch eine auf Buch stab en- n- Gramme n beruhende Buchstabengrammatik 
zum Einsatz kommt. Es werden N beste Worthypothesen ermittelt, die nach der Methode 
des dynamischen Programmierens (DP) weiterverarbeitet werden, wobei die ermittelten 

20 Hypothesen mit dem Inhalt eines Namenslexikons verglichen werden. Die von der DP- 

Einheit gelieferten N besten Worthypothesen werden als dynamische Grammatik verwen- 

det, die von einer weiteren Spracherkennungseinheit verwendet wird, die aus den von der 

DP-Einheit gelieferten Worthypothesen eine als - dem eingegebenen Namen entsprechen- 

des - Erkennungsergebnis auswahlt. 

25 * 

Bei Navigationssystemen fiir Landkraftfahrzeuge ist es ebenfalls bekannt, Eingaben mittels 

Sprachaufierungen zu tatigen. Auf diese Weise werden beispielsweise Ortsnamen als Ziel- 

orte eingegeben. Um die Zuverlassigkeit der Spracherkennung zu verbessern, ist neben 

einer Wort-Spracherkennung, bei der eine Eingabe von natiirlich gesprochenen Worten 

30 vorgesehen, aufierdem eine Buchstaben-Spracherkennung vorgesehen, die zur Erkennung 

buchstabierter Spracheingaben dient. * 
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Der Erfindung liegt nun die Aufgabe zugrunde, robuste und effiziente Spracherkennungs- 
prozeduren fur die Anwendung von Sprachsignalen zur Systemsteuerung unter Anwen- 
dung einer Buchstaben-Spracherkennung anzugeben. 

5 

Die Aufgabe wird dadurch gelost, daS die der dynamischen Programmierung zugrundelie- 
gende Gitterstruktur, deren Knotenpunkte zur Zuordnung zu akkumulierten Wahrschein- 
lichkeitswerten vorgesehen sind, in eine Baumstruktur umgesetzt wird und dafi bei der 
Suche nach einem optimalen Baumpfad der A-Algorithmus eingesetzt wird. Dieser Ansatz 
10 fiihrt zu einer beschleunigten Buchstabehspracherkennung mit verringertem Speicherplatz- 
bedarf. 

In einer Ausgestaltung ist vorgesehen, daf? suboptimale Baumpfade entsprechend N bester 
Schatzungen fiir die Sprachaufierungseingabe mit N>1 ermittelt werden. Damit stehen 
1 5 Erkennungsalternativen fiir eine Weiterverarbeitung zur Verfiigung, so dafi ein Fehler bei 
der Ermittlung des optimalen Baumpfades in nachfolgenden Verarbeitungsschritten unter 
Zuhilfenahme der suboptimalen Erkennungsergebnisse leichter korrigierbar ist. 

Eine weitere Ersparnis an Rechenzeit wird dadurch erreicht, dafi bei der Suche nach einem 
20 optimalen Baumpfad diejenigen Baumpfade, die schon zu Beginn der Suche eine gegen- 

iiber anderen Baumpfaden eine kleine Wahrscheinlichkeit aufweisen, vorrangig nicht mehr 
weiterverfolgt werden. 

Es wird weiterhin vorgeschlagen, dafi die erste Verarbeitungsstufe mittels eines ersten ICs 
25 und die zweite Verarbeitungsstufe mittels eines zweiten ICs durchgefiihrt wird. Der erste 
; IC (integriete Schaltkreis) ist vorzugsweise ein speziell fiir Spracherkennungsprozeduren 

programmierte digitaler Signalprozessor. Der zweite IC kann insbesondere ein Controller- 
Baustein sein, der auch zur Realisierung anderer Systemfunktionen eingesetzt wird. 
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Die Erfindung betrifft auch ein Verfahren zur Systemsteuerung mittels Sprachsignalen, bei 
dem 
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eine Eingabe eines als Steuersignal dienenden ganzen Wortes und eine Eingabe 
wenigstens eines Teils dieses Wortes in buchstabierter Form vorgesehen ist, 
eine Wort- Sprach erkennung zur Erkennung des eingegebenen ganzenWortes 
vorgesehen ist, 

eine Buchstaben-Sprach erkennung, insbesondere wie oben beschrieben, zur Erkennung 
des eingegebenen buchstabierten Teils des ganzen Wortes vorgesehen ist und 
bei dem mit Hilfe des Erkennungsergebnisses der Buchstaben-Sprach erkennung eine 
Einschrankung eines der Wort-Spracherkennung zugeordneten Vokabuiars durchge- 
fiihrt wird. 

Ein solches Verfahren fuhrt auch fiir schwierige Rahmenbedingungen wie beispielsweise 
einem hohen Storgerauschpegel in Kraftfahrzeugen oder undeutlicher Sprechweise eines 
Benutzers zu einer zuverlassigen Sprachsteuerung. 



15 Die Erfindung betrifrt auch ein sprachgesteuertes elektrisches Gerat, insbesondere ein 

Navigationssystem fur Landkxaftfahrzeuge, mit Komponenten zur Durchfiihrung eines der 
oben beschriebenen Verfahren. 

Ausfiihrungsbeispiele der Erfindung werden nachfolgend unter anderem anhand der 
20 Zeichnungen naher erlautert. Es zeigen: 

Fig. 1 eine Baumstruktur zur Erlauterung zum statistischen Modell einer 

B u chs tab enfolge, 
Fig. 2 ein Beispiel fiir einen Gitterpfad, 
25 Fig. 3 eine Baumstruktur, deren Baumknoten Spalten eines DP-Gitters entsprechen, 
Fig. 4 ein Blockschaltbild eines Systems zur Erkennung buchstabierter Sprachaufie- 

rungen und 

Fig. 5 ein Blockschaltbild eines Systems mit Sprachsteuerung durch Eingabe von 
Worten und buchstabierter sprachlicher Aufierungen. 
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Eine bevorzugte Anwendung der Erfindung ist ein Navigationssystem fiir Kxaftfahrzeuge 
mit einer Sprachsteuerung. Die automatische Spracherkennung fiir die Sprachsteuerung ist 
hier schwierig, da das zu erkennende Vokabular (z. B. einige zehntausend Stadtenamen) 
umfangreich ist und die akustischen Bedingungen in Kraftfahrzeugen aufgrund zahlreicher 
5 auftretender Storgerausche als ungiinstig beurteilt werden miissen. Weiterhin ist davon 
auszugehen, dafi die verfugbare Hardware in Navigationssystemen in Anbetracht der 
Komplexitat von Spracherkennungsprozeduren nur eine sehr beschrankte Verarbeitungs- 
kapazitat und einen relativ kleinen Arbeitsspeicher auftveist. Die Erfindung ist allerdings 
nicht auf die Anwendung in Navigationssystemen fiir Kxaftfahrzeuge beschrankt, sondern 
10 in alien Gerate mit Sprachsteuerung und ahnlich gelagerten Randbedingungen geeignet. 

Beim vorliegenden Navigationssystem wird ein Benutzer im Spracherkennungsmodus zur 
Spracheingabe aufgefordert, z. B. zur Eingabe eines Stadtenamens, und zwar jeweils sowohl 
zur Eingabe durch Sprechen eines ganzen Wortes als auch zusatzlich zur Eingabe durch 

15 (kontinuierliches) Buchstabieren wenigstens eines Teils des eingegebenen Wortes. Es wird 
in zwei ersten Verarbeitungsstufen sowohl eine auf dem vorgegebenen Vokabular basieren- 
de Wort- Spracherkennung als auch eine Buchstaben-Spracherkennung durchgefiihrt. Bei 
der Buchstaben-Spracherkennung wird dem Benutzer die Anzahl einzugebender Buchsta- 
ben pro Wort nicht vorgegeben. Mit dem Spracherkennungsergebnis beziiglich der einge- 

20 gebenen Einzelbuchstaben konnen die Worte des vorgegebenen Vokabulars ermittelt 

warden, die als Wort-Spracherkennunsergebnis in Frage kommen. Basierend auf dem sich 
hieraus ergebenden eingeschrankten Vokabular wird in einer weiteren Verarbeitungsstufe 
fiir das eingegebene ^X/ort erneut eine ^w^ort- Spracherkennung durchgefiihrt. 

25 Im folgenden soli die Buchstaben-Spracherkennung naher erlautert werden. Bei dieser ist 
; regelmafiig, irisbesondere in Umgebungen mit erheblichen Storgerauschen wie innerhalb 

von Kraftfahrzeugen, mit hohen Fehlerraten zu rechnen. Einer Verbesserung dieser Fehler- 
rate durch Beriicksichtigung des Vokabulars bei der akustischen Suche des Buchstaben- 
Spracherkenners stdSt auf das Problem, dafi iibliche Spracherkenner-ICs nicht geniigend 

30 Speicher zur Speicherung der aus einem grofSen Vokabular resultierenden Datenmengen 
enthalten. Bei dem vorliegenden Navigationssystem wird aus diesem Grund die Buch- 
staben-Spracherkennung in zwei voneinander unabhangigen Verarbeitungsstufen 
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durchgefiihrt. In der ersten Verarbeitungsstufe vverden die eingegebenen Buchstaben 
mittels eines iiblichen Buchstaben-Spracherkenners ohne Beriicksichtigung eines Vokabu- 
lars durchgefiihrt. Diese Verarbeitungsstufe wird mittels eines speziell hierfur ausgelegten 
und programmierten Spracherkenner-ICs durchgefiihrt. In der zweiten Verarbeitungsstufe 
5 wird eine Nachverarbeitung durchgefiihrt. Diese wird mittels des Controllers durchge- 
fiihrt, der zur Umsetzung der anderen Systemfunktionen (d.h. hier der speziellen 
Navigationsfunktionen) dient und der auf ausreichend Speicherplatz zugreifen kann. 

Fur die Nachverarbeitung stehen zusatzliche Informationen beziiglich verschiedener mogli- 
10 cher Buchstabenfolgen zur Verfiigung, insbesondere - wie im vorliegenden Ausfiihrungs- 
beispiel - eine Liste mit zulassigen Buchstabenfolgen, d.h. Buchstabenfolgen, mit denen 
jeweils mindestens ein Wort des Vokabulars beginnt, und statististische Informationen 
beziiglich solcher Buchstabenfolgen, z.B. bedingte Wahrscheinlichkeiten (wie beispiels- 
weise die Wahrscheinlichkeit, dafi beim dritten Buchstaben C eines Wortes die beiden 
15 ersten Buchstaben jeweils ein A waren). Als weitere die Fehlerrate reduzierende statistische 
Informationen kommen auch Wahrscheinlichkeiten fiir Verwechslungen zwischen zwei 
Buchstaben (N und M sind z. B. einander ahnlich und haben deshalb eine hohe Verwechs- 
lungswahrscheinlichkeit) oder Wahrscheinlichkeiten bzgl. eines versehentlichen Einfiigens 
oder Auslassens eines Buchstabens in Betracht. 
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Das der Nachverarbeitung zugrundeliegende Problem lafit sich wie folgt formulieren: 



l _: i. 

VJCgCUCIl MllU: 



ein statistisches Modell des Buchstaben-Spracherkenners (d.h. Wahrscheinlichkeiten 
25 von Erkennungsfehlern); 

ein statistisches Modell der gesprochenen Buchstabenfolge und 
eine Folge erkannter Buchstaben. 
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Gesucht ist: 

Die Buchstabenfolge mit der groSten Wahrscheinlichkeit, die gesprochene 
Buchstabenfolge zu sein. 



PHD 99-124 



Im folgenden wird £ aJs Symbol fiir eine Buchstabenmenge bezeichnet. 

Eine gesprochene (und in den Spracherkenner eingegebene) Buchstabenfolge s der Lange n 
(mit Buchstaben s) und eine erkannte Buchstabenfolge r der Lange m (mit Buchstaben r,) 
5 werden beschrieben durch: 

s = (sj, s 2 , s n ) mit S;Gl 
r = (rj, r 2 , rj mit r ; e S 

Die Buchstabenfolgen sind zur Unterscheidung gegeniiber Einzel buchstaben unterstrichen 
10 dargestellt. Unterschiedliche Langen n und m konnen sich dadurch ergeben, daE der 
verwendete Spracherkenner fehlerhaft Buchstaben ins Erkennungsergebnis einfiigt oder 
auch fehlerhaft Buchstaben weglafit. 

Gesucht ist nun die Buchstabenfolge s, bei der bei gegebener Buchstabenfolge r die Wahr- 
15 scheinlichkeit 



P(rls)P(s) 

P(s lr) = - 



P(r) 

maximal ist. Da das Wahrscheinlichke its maximum von P(r) unabhangig ist, ist nach der 
Buchstabenfolge s zu suchen, die den Ausdruck 

20 

P(r I s) P(s) 



maximiert. Der Wahrscheinlichkeitsterm P(r I s) beschreibt die Spracherkennereigenschaf- 
ten (durch die Wahrscheinlichkeit fiir eine Folge erkannter Buchstaben r gegeben eine 
25 Folge gesprochener Buchstaben s), der Wahrscheinlichkeitsterm P(s) dagegen die Auftritts- 
wahrscheinlichkeiten von gesprochenen Buchstabenfolgen s (entsprechend einem Sprach- 
modell, das beriicksichtigt, dal? nicht alle Buchstabenkombinationen gleich wahrscheinlich 
sind). 
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Zur Berechnung des Maximums des Ausdrucks P(r I s) P(s) soil ein effizienter Algorithmus 
angegeben werden. Hierzu werden vereinfachende Annahmen beziiglich der beiden Wahr- 
scheinlichkeitsfunktionen P(r I s) und P(s) gemacht, um so geeignete statistische Modeile 
fur den Spracherkenner und die gesprochene Buchstabenfolge zu erhaJten. Im folgenden 
wird das statistische Modell fur P(r I s) mit P R (r I s) und das statistische Modell fiir P(s) mit 
P s (s) bezeichnet. 

Als (aus dem vorgegebenen Vokabular abgeleitetes) statistisches Modell fiir die gespro- 
chene Buchstabenfolge wird nun der Ausdruck 



angesetzt, der die Wahrscheinlichkeit dafiir angibt, dal? auf eine Folge von i gesprochenen 
Buchstaben s^..., s ; als nachster gesprochener Buchstabe s j+i folgt. Die Wahrscheinlichkeit, 
15 dafi sprachliche AuSerung nach den Buchstaben Sj,..., s ; endet, ist gegeben durch 



P s ($ls 1 ,...,s i )=l- X P s( s i + i ls i— O > 



wobei $ das Ende einer Buchstabenfolge bezeichnet. Derartige Wahrscheinlichkeiten 
konnen leicht aus einem gegebenen Vokabular und a priori Wahrscheinlichkeiten fur die 
20 Worter des Vokabulars geschatzt werden. Dementsprechend lafit sich die Wahrschein- 
lichkeit fiir eine Folge gesprochener Buchstaben s = (s lfl s 2 , sj angeben durch 

_P S (S) = Ps(«i I #) Ps(s 2 I s x ) ... P s (s n I s„ s n J P s ($ I s„ sj , 

25 wobei das Zeichen # den Beginn einer Buchstabenfolge bezeichnet. Weiterhin wird ein 
begrenztes Vokabular V mit 



V = { s I P s (s) * 0 } 
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vorausgesetzt. Fur den Fall, dafi eine Buchstabenfolge s Element des Vokabulars V ist, ist 
audi jedes Prafix von s (d.h. eine Folge von einem oder mehreren aufeinanderfolgenden 
Buchstaben, mit denen die Buchstabenfolge s beginnt) Element des Vokabulars V. Da- 
durch kann der Benutzer eine beliebig lange Anfangsbuchstabenkette des zu buchstabie- 
5 renden Wortes sprechen und mufi das Wort nicht vollstandig buchstabieren. Durch 

entsprechende Wahl von P s kann a-priori-Wissen iiber die Wahrscheinlichkeit ausgenutzt 
werden, wie viele Buchstaben ein Benutzer voraussichtlich bei der Eingabe im Buchstabier- 
modus sprechen wird. 



10 Die verschiedenen Wahrscheinlichkeiten P s eines Vokabulars V lassen sich mit Hilfe einer 
Baumstruktur auf einfache Weise darstellen. Dabei wird einer Baurnkante jeweils ein 
Buchstabe und der zugehorige Wahrscheinlichkeitswert zugeordnet. Jeder gesprochenen 
Buchstabenfolge entspricht dann ein Baumknoten, wobei sich die Wahrscheinlichkeit der 
Buchstabenfolge aus dem Produkt derjenigen Wahrscheinlichkeiten ergibt, die den von der 

15 Baumwurzel bis zum betreffenden Baumknoten fiihrenden Baumkanten zugeordnet sind. 

Ein Beispiel fur eine derartige Baumstruktur zeigt Fig. 1. Hier sind zur Bildung des Voka- 
bulars vereinfacht als mogliche Buchstaben A, B, C, D und E vorausgesetzt, die jeweils 
zusammen mit der zugehorigen Auftrittswahrscheinlichkeit einer Baurnkante zugeordnet 

20 sind. Dementsprechend ergeben sich fur die Buchstabenfolgen AB, AC undDE die Wahr- 
scheinlichkeitswert e P S (AB)=0,18 , P S (AC)=0,06 und P S (DE)=0,56 als Produkt der den 

* einzelnen Buchstaben der Buchstabenfolgen jeweils zugeordneten Wahrscheinlichkeits- 
werten. Unter der Bedingung, dafi die Wahrscheinlichkeit des Erreichens eines Endes $ 
einer Buchstabenfolge schon vor dem Durchlauf eines ganzen Baumpfades mit P s ($)= 0,2 

25 angesetzt wird, ergeben sich weiterhin die Wahrscheinlichkeitswerte P S (A)=0,06 und 

P S (D)=0,14 durch Multiplikation von P s ($) mit den den Buchstaben A und D bzw. den 
zugehorigen Baumkanten zugeordneten Wahrscheinlichkeiten. Die Summe der Wahr- 
scheinlichkeitswerte P s ergibt sich zu Eins. 
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Um ein einfaches statistisches Modell fur den Bucks tab en-Spracherkenner (genauer 
gesagt: fur die Erkennungsfehler des Buchstaben-Spracherkenners) zu erhalten, wird 
vorausgesetzt, dafi die gesprochenen Buchstaben unkorreliert sind und lediglich die 
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Korrelationen zwischen einem erkannten und einem gesprochenen Buchstaben beriicksich- 
tigt werden. Das statistische Modell fiir den Buchstaben-Spracherkenner liefert die Wahr- 
scheinlichkeit, daf? ein Buchstabe r erkannt und ein Buchstabe s gesprochen wurde (mit r, 
s G S)- Weiterhin werden bei diesem Modell Wahrscheinlichkeiten fiir Einfiigungen von 
5 Buchstaben r ohne korrespondierenden gesprochenen Buchstaben s und Wahrscheinlich- 
keiten fur Loschungen von Buchstaben (kein erkannter Buchstabe r fur den Fall eines 
gesprochenen Buchstabens s) angesetzt. Zur Beschreibung dieser Falle wird ein virtueller 
Buchstabe 6 g Z eingefiihrt, der sowohl zur Bezeichnung eines nicht gesprochenen als 
auch zur Bezeichnung eines nicht erkannten Buchstabens dient. Demgemafi ergibt sich fiir 
10 das statistische Modell des Buchstaben-Spracherkenners zu 

-# 

P R (r, s) mit r, s G I u {e} . 



Diese Verb und- Wahrscheinlichkeiten werden als Elemente einer Matrix ("confusion 
15 matrix") aufgefafit, wobei die verschiedenen Buchstaben r und s den einzelnen Zeilen bzw. 
Spalten der Matrix bezeichnen. Ausgehend von dieser als gegeben vorausgesetzten und in 
gespeicherter Form vorliegenden Matrix werden bedingte Wahrscheinlichkeiten P(r I s) fiir 
eine erkannte Buchstabenfolge r und eine gesprochene Buchstabenfolge s berechnet, was 
nachstehend noch naher erlautert wird. 

20 

Um mogliche zeitliche Verlaufe von Zuordnungen von Buchstabenfolgen r und s 
darzustellen, wird ein zweidimensionales Gitter benutzt, das in vertikaler Flichtung m+1 
Punkte und in horizontaJer Rjchtung n+1 Punkte auf\veist, die jeweils rnit einem r ( und 
einem s l bezeichnet sind. Die 0-te Zeile und 0-te Spalte bleiben dabei unbezeichnet. Der 
25 zeitliche Verlauf einer Zuordnung einer bestimmten Buchstabenfolge r zu einer bestimm- 
ten Buchstabenfolge s entspricht einem Pfad durch ein solches Gitter, der durch eine Folge 
71 von Koordinatenpaaren 
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mit 



= (a p Pi), (a 2 , Pi), (a k , p k ) 
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o x = pi = 0 ; 

Pui) e pi + 1), (a ; + 1, p i+1 ) (a ; + 1, p ; + 1)} ; 
a ; < n, p; < m . 

5 Ein Pfadsegment (a;. 13 p^) — > (a ; , p), bei dem sowohl die a-Koordinate als auch die p- 
Koordinate inkrementiert worden sind, impliziert, dafi ein Buchstabe s CTi gesprochen und 
ein Buchstabe r pi erkannt wurde. 1st bei einem Pfadsegment jedoch die a-Koordinate 
konstant, dann wurde zwar ein Buchstabe r pi erkannt, aber kein Buchstabe gesprochen, was 
dem fehlerhaften Einfugen eines Buchstaben durch den Buchstaben-Spracherkenner 
10 entspricht. 1st die p-Koordinate konstant, wurde zwar ein Buchstabe s ai gesprochen, jedoch 
kein vom Spracherkenner kein korrespondierender Buchstabe erkannt (Loschfehler). 

Fig. 2 zeigt beispielhaft einen Ausschnitt aus einer derartigen Gitterstruktur mit einem 
eingezeichneten Pfad K. Es wurden drei Buchstaben s l9 s 2 und s 3 gesprochen und zwei 
15 Buchstaben r t und r 2 erkannt. Der Buchstabe r l wurde als Buchstabe Sj erkannt. Der 

Buchstabe s 2 wurde nicht erkannt (d.h. geloscht). Der Buchstabe s 3 wurde schliefSlich als 
Buchstabe r 2 erkannt. 

Allgemein ergibt sich die Wahrscheinlichkeit P R fiir eine gesprochene Buchstabenfolge s, 
20 eine erkannte Buchstabenfolge r und einen Gitterpfad K gemafi 



p R dis)=2:n 



Pr^'So.) Mk Pi -Pi-! ,and ~i " CT 

P R (els a .) falls P; =p;_, und C, *o 



i=1 k(v e 



e) falls Pj ^Pi.! und o i = a 

Dabei wird in der dritten Zeile fiir den Fall, dafi zwar ein Buchstabe erkannt wurde, aber 
kein entsprechender gesprochener Buchstabe vorliegt, eine Verbundwahrscheinlichkeit 
anstelle einer bedingten Wahrscheinlichkeit (wie in den beiden oberen Zeilen) fiir P R 
25 angesetzt. 



25 
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Zusammenfassend stellt sich das der Buchstaben-Spracherkennung zugrundeliegende 
Problem somit so dar, dafi diejenige gesprochene Buchstabenfolge s G Vzu ermitteln ist, 
die bei einer gegebenen erkannten Buchstabenfolge r die Funktion f(s) mit 



f(s) = P R (r I s) P s (s) 



maximiert. 



Eine Verbesserung der Buchstaben-Spracherkennung ergibt sich bei der Verwendung eines 
10 Buchstaben-Spracherkenners, der nicht nur einzelne Buchstaben als Hypothesen fur jeweils 
einen gesprochenen Buchstaben ausgibt, sondern eine Liste N bester Buchstabenhypothe- 
sen (N > 1), die jeweils mit einem Wahrscheinlichkeitswert gewichtet sind. Diese erweiter- 
te Ergebnisinformation kann vollig anaJog zu den obigen Ausfiihrungen verarbeitet werden 
(also Verarbeitung ebenfalls ausgehend von einer Matrix und einer Gitterstruktur), was zu 
15 einer verbesserten Erkennungsfehlerrate fiihrt. 

Im folgenden soli die Nachverarbeitung beschreiben werden, durch die das oben genarinte 
Problem der Maximierung von f(s) gelbst wird. 

20 Im folgenden sei X) ein vorgegebenes Alphabet, VcZ' ein begrenztes Vokabular mit X aJs 
Menge mdglicher Buchstabenketten, so dal? im FaJle einer gesprochenen Buchstabenfolge 
s_G V auch jedes Prafix der Buchstabenfolge s Element von V ist. P R , P s und f(s) sollen wie 
oben definiert sein. Weiterhin sei r € I eine beliebige, aber feste Folge erkarinter Buch- 
staben. 



Eine (direkte) Moglichkeit zur Bestimmung der Folge s mit der grofiten Wahrscheinlich- 
keit ist die Berechnung aller Werte f(s) fiir alle s G V, wobei die gesuchte Folge s diejenige 
ist, bei der f(s) maximal ist. Zur Bewertung von f(s) bietet sich eine leicht modifizierte 
Version der Methode der Dynamischen Programmierung (DP-Algorithmus) an. 



15 



20 



25 



PHD 99-124 
■2- 



Bei der Methode der dynamischen Programmierung wird zunachst ein Gitter mit (n+1) x 
(m+1) Punkten angesetzt, wobei im vorliegenden Ausfuhrungsbeispiel n die Anzahl gespro- 
chener Buchstaben und m die Anzahl erkannter Buchstaben ist. Die Zeilen des Gitters sind 
durch gesprochene Buchstaben und die Spalten des Gitters sind durch erkannte Buchsta- 
5 ben gekennzeichnet. Wie schon beim Gitter gemafi Fig. 2 sind die erste Zeile und die erste 
Spalte des Gitter nicht gekennzeichnet. Jedem durch ein Koordinatenpaar (i, j) mit i = 0, 

n und j = 0, m gekennzeichneten Gitterpunkt ist eine Wahrscheinlichkeit p» zuge- 
ordnet, die die Wahrscheinlichkeit dafur angibt, dafi die Buchstabenfolge s [9 s ( eine 
Folge gesprochener Buchstaben (hier insbesondere ein Prafix eines eingegebenen Wortes, 
10 d.h. eine Folge aus mindestens einem Buchstaben, mit der das Wort beginnt) und daf? r A , 

r- f eine entsprechende zugehorige Folge erkannter Buchstaben ist. Der DP-AJgorithmus 
ist eine Methode, um die Wahrscheinlichkeiten p» spaltenweise zu berechnen. Dabei wird 
die 0-te Spalte in jeder Zeile mit einer 1 initialisiert. Die Spalte i+1 wird fiir i = 0, n-1 
aus der Spalte i bestimmt gemal? 



Pi + i.o = Pi,o P r( £ 1 s i + i) p s(s i+ i I s„ s) und 
Pm.M = Pi*i.i PrUj*! , e) 

+ PU P R( r i + i 1 s i + i) P s( s i + i 1 s i> — s i) 

+ Pij.i p r( e 1 s i + i) p s(s i+ i I s ; ) 

fiir j = 0, m-1. 

Hieraus ergibt sich durch Vergleich mit der oben angegebenen (und eine Produkt- und 
Summenbildung enthaltenden) Formel fiir P R (r I s) die gesuchte Funktion f(s) gemafi 

f(5) = P. m Ps(S I 5). 



Beginnen zwei Buchstabenfolgen s x und s 2 mit der gleichen Buchstabenfolge s der Lange n, 
sind die ersten n Spalten des dem DP-Algorithmus zugrundegelegten Gitters identisch. Um 
30 dementsprechende redundante Berechnungen zu vermeiden, wird die folgende Modifica- 
tion vorgeschlagen: Die Spalten des DP-Gitters (eines dem DP-Algorithmus zugrundelie- 
genden Gitters) werden als Knoten eines Baumes definiert. Jeder Baumpfad entspricht nun 
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einem DP-Gitter und Baumpfade mit einem identischen Anfangssegment entsprechen zwei 
DP-Gittern fiir die Buchstabenfolgen Sj und s 2 mit gleicher Anfangsbuchstabenfolge 
(anders ausgedriickt: gleichem Prafix). Fig. 3 verdeutlicht diesen Ansatz und zeigt die dem 
Beispiel gemafi Fig. 1 entsprechende Baumstruktur. Im dargestellten Beispiel wurden zwei 
5 Buchstaben erkannt, so dafi jedem Baumknoten drei DP-Gitterknoteri (entsprechend einer 
DP-Gitterspalte) zugeordnet sind. 

Im folgenden wird nun ein Ansatz beschrieben, der zeigt, dai? nicht alle Knoten einer 
solchen Baumstruktur bewertet werden mussen, urn das Maximum der Funktion f(s) zu 
10 erhalten, und zwar unter Zuhilfenahme des sogenannten A -Algorithmus. 

Die Baumknoten werden nachstehend mit t (1) , t (2) , ... bezeichnet. Der j-te Eintrag (j = 0, 
m) in der Gitterspalte, die dem Knoten t tk) zugeordnet ist, sei tj (k) . Weiterhin sei 

15 t, 00 = t m (k) P s ($ I s), 

wobei die Buchstabenfolge s die auf dem Pfad zum Knoten t (k) Iiegende Buchstabenfolge 
ist. Nun kann das Problem, die Folge gesprochener Buchstaben mit der groSten Wahr- 
scheinlichkeit zu finden, in einer abgewandelten Form formuliert werden, und zwar als 
20 Suche nach dem Baumknoten t (k) , fur den der Wert t x (k) maximal ist. 

Nach der Bewertung eines Baumknotens t (k) wird ein oberer Grenzwert t (k) geschatzt 



25 



t 00 > m| ax {t, cl) I r ' ist Nachfolgeknoten von t w } . 
Nach der Bewertung zweier Baumknoten t w und t* 1 und bei Vorliegen der Bedingung 



t 00 < tc*'' 



30 



weifi man bereits, dafi kein Nachfolgebaumknoten des Baumknotens t w ein optimaler 
Baumknoten sein kein kann. Eine Bewertung solcher Nachfolgebaumknoten eriibrigt sich 
somit und wird nicht durchgefiihrt. 
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Zur Berechnung des Grenzwert t (k) wird der der sogenannte A -Algorithmus angewendet. 

Die hier wesentlichen Iterationsschritte des an sich bekannnten A -Algorithmus (siehe bei- 
5 spielsweise E.G. Schukat-Talamazzini, "Automatische Spracherkennung", Vieweg-Verlag, 
1995, Kapitel 8.2.1) sind: 

(1) Initialisierung: 

Bewertung des Baumwurzelknotens. 

10 

(2) Iteration: 

E sei ein Satz schon bewerteter Knoten. 
Es gelte: p = max { t, I t e E ). 

Es gelte: p = max { t I t 6 E ). 

15 

(3) TJberpriifung, ob das Beendigungskriterium erfiillt ist: 

Fur p > p : Ende des Algorithmus (keine weiteren Iterationsschritte notwendig). 
Der optimale Baumknoten ist der Knoten t G E, fur den t s maximal ist. 

20 (4) Expansions des Baums: 

Es wird ein bisher nicht expahdierter Baumknoten t G E ausgewahlt und expan- 
1 diert, was eine Bewertung aller seiner Tochterknoten beinhaltet. Danach wird 

nun der Algorithmus mir Schritt C2) fortcresetzt 

25 Zu beachten ist, dafi in Schritt (4) grundsatzlich Freiheit in der Auswahl eines Knotens 
t e E besteht.Um eine grofistmogliche Effizienz des Algorithmus zu gewahrleisten, ist es 
allerdings anzustreben, an dieser Stelle den Baumknoten zu wahlen, der die grofite Wahr- 
scheinlichkeit besitzt, Teil des Pfades zum optimalen Baumknoten zu sein. DemgemalS 
wird hier derjenige Baumknoten t G E gewahlt, fur den das Maximum max {t^} maximal 

30 ist, d.h. es wird der Baumknoten t G E gewahlt, der den meistwahrscheinlichen bereits 
bewerteten Gitterpunkt aufweist. 
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Nun soil naher darauf eingegangen werden, wie der Wert fur t (k) zu ermirteln ist. Grund- 
satzlich bestehen viele Moglichkeiten, diesen Wert zu bestimmen. Als eine vorteilhafte 

Moglichkeit der Bestimmung von t 00 - bei der der Rechenaufwand gering gehalten wird 
und uberfliissige Iterationsschritte vermieden werden - wird folgendes vorgeschlagen: 



Es sei 



j=argmax{t j } 

j=O t ... > m 



10 



unc 



c ) ^maxIPj^C^ Is) IsgZ} 



a 



fur j = j + 1, m. Der gesuchte Werj von t tk) ergibt sich dann zu 
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t (k) = max < 



„(k) 



t (k) c 

l m-l } 
m-2 C m C m-1 > 



j m n 



Die Berechnung dieses Ausdrucks fiir t (k) ist mit wenig zusatzlichem Rechenaufwand 
verbunden, denn die Produkte c m , c^^j, ... konnen vorab berechnet werden und der 

A 

Minimum-Index j wird ohnehin in Schritt (4) des A"-Algorithmus bestimmt. 



20 Eine weitere Ausfiihrungsvariante ergibt sich, wenn der A"-Algorithmus beim erstmaligen 
Erfiillen der Bedingung im Schritt (3) nicht gestoppt, sondern weitere Algorithmus- 
Schleifen durchlaufen und weitere suboptimale Baumpfade ermittelt werden. Dann wird 
entsprechend N-l weiteren durchlaufenen Schleifen statt einer einzigen Hypothese fiir die 
Folge gesprochener Buchstaben eine Liste N bester Hypothesen ausgegeben, und zwar 

25 diejenigen, die am wahrscheinlichsten die Folge der gesprochenen Buchstaben widergeben. 
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Der oben beschriebene Algorithmus garantiert das Finden des optimalen Baumknotens 
und damit der optimalen Schatzung der eingegebenen Buchstabenfolge s ; er ist allerdings 
rechenzeitintensiv und bendtigt viel Speicherplatz. Im folgenden soil erlautert werden, wie 
5 die Rechenzeit und der Speicherplatzbedarf verringert werden konnen. Bei dem entspre- 
chend modifizierten A -Algorithmus werden lediglich die offenen Baumknoten gespeichert, 
d.h. die Baumknoten, die schon bewertet, aber noch nicht expandiert wurden. Nach der 
Expansion eines Baumknotens wird dieser im Speicher geloscht. Die maximale Anzahl zu 
speichernder offener Baumknoten wird a priori vorgegeben. Liegt die Anzahl offener 

10 Baumknoten iiber dieser vorgegebenen maximalen Anzahl, ist demgemafi zu ermitteln, 
welche dieser offenen Baumknoten bei der nachfolgenden Berechnung aufier Betracht 
bleiben konnen (sogenanntes "pruning"), wobei diese Knoten nicht zum optimalen 
Baumpfad gehoren diirfen, da ansonsten der A -Algorithmus ein falsches Ergebnis liefern 
wiirde. Es stellt sich also hier das Problem, diejenigen Baumknoten zu finden, die mit der 

15 groSten Wahrscheinlichkeit nicht Teil des optimalen Baumpfades sind. Zur Losung dieses 
Problems wird ein einfacher heuristischer Ansatz gewahlt. Dabei werden diejenigen 
offenen Baumknoten vorrangig als aufier Betracht zu bleibende Baumknoten gewahlt, die 
am nachsten zur Baumwurzel liegen. Dies bedeutet, dafi Suchpfade, die schon zu Beginn 
eine kleine Wahrscheinlichkeit aufweisen, diejenigen Baumpfade sind, die vorrangig als 

20 nicht mehr weiterzuverfolgende Pfade eingestuft werden. 

* Die beschriebene "pruning ,, -Stragegie kann effizient insbesondere dadurch implementiert 
werden, dafi die offenen Knoten nicht in einer gemeinsamen Halde ("heap") gespeichert 
werden, sondern fur jede Pfadlange einer Halde vorgesehen ist und die offenen Knoten in 

25 der jeweils zugehorigen Halde gespeichert werden. Im Fall einer Uberschreitung der zu- 
lassigen Anzahl offener Knoten (s.o.) wird bei dieser Form der lmplementierung diejenige 
Halde, die den kiirzesten Baumpfad reprasentiert, geloscht. Die hierfiir erforderliche 
Zeitspanne ist nahezu konstant. 

30 Fig. 4 zeigt ein Blockschaltbild eines Spracherkennungssystems 1 zur Erkennung eingege- 
bener buchstabierter sprachlicher Aufierungen s, dafi gemafi den obigen Ausfuhrungen zur 
erfindungsgemafien Buchstaben-Sprach erkennung arbeitet. Ein Block 2 kennzeichnet eine 
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Spracherkennungseinheit, die basierend auf akustischen Modellen - wie iiblich werden 
HMM (Hidden Markov Modelle) verwendet - ein Erkennungsergebnis r (Folge von 
Buchstaben) liefert, wobei eine Buchstabengrammatik, die Wahrscheinlichkeiren fiir das 
Auftreten verschiedener moglicher Buchstabenkombinationen angibt, durch'die Sprach- 
erkennungseinheit 2 nicht verwendet vvird. Das Erkennungsergebnis r wird einer Nach- 
verarbeitungseinheit 3 zugefiihrt, die basierend auf durch einen Block 4 dargestellten 
statistischen Modellen fiir Buchstabenfolgen P s (s) und auf mit einen Block 5 dargestellten 
statistischen Modellen P R (r I s) fiir den Spracherkenner wie oben beschrieben die entspre- 
chende Funktion f(s) maximiert (Block 6) und hieraus ein auszugebendes Erkennungs- 
ergebnis Rg ableitet. Das Erkennungsergebnis R$ ist entweder eine Schatzung der eingege- 
benen Buchstabenfolge s oder eine Liste N bester Schatzungen der eingegebenen Buch- 
stabenfolge s mit den groSten Wahrscheinlichkeiten, die richtige Schatzung zu sein. 

Das in Fig. 5 dargestellte Blockschaltbild zeigt ein System mit Sprachsteuerung - hier 
vorzugsweise ein Navigationssystem fiir Landkraftfahrzeuge das sowohl einen Buchsta- 
benspracherkenner 1 gemafi Fig. 4 als auch einen Wort-Spracherkenner 7 zur Erkennung 
eingegebner Worte w aufweist. Zur Anwendung der Erfindung kommen aber prinziell alle 
sprachgesteuerten Systeme mit Funktionseinheiten zur Erkennung buchstabierter Sprach- 
aufierungen in Betracht. Das vom Buchstaben-Spracherkenner 1 gelieferte Erkennungs- 
ergebnis wird zur Einschrankung des Vokabulars des Wort-Spracherkenners 7, d.h. zur 
Begrenzung der als Wort- Erkennungsergebnis R w in Frage kommenden Worte, verwendet, 
was zu einer robusteren Wort-Spracherkennung fiihrt. Bei einer bestimmten Anfangsbuch- 
stabenfolee oder N bester AnfanesbucHstabenfolffen als Erkennunserffebnis R- wird das 
Vokabular des Wort-Spracherkenners 7 auf die Worte mit diesen Anfangsbuchstabenfolgen 
eingeschrankt. Das Erkennungsergebnis R w wird zur Systemsteuerung verwendet, wobei 
die gesteuerteh Systemfunktionseinheiten durch einen Block 8* zusammengefafit sind. Bei 
Navigationssystemen stellt das Erkennungsergebnis beispielsweise einen Ortsnamen dar, 
dessen Eingabe das Navigationssystem zur Ermittlung einer dorthin fiihrenden Fahrstrecke 
veranlafit. 
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Vorliegend werden der Spracherkennungsblock 2 und die Nachverarbeitungseinheit 3 
mittels unterschiedlicher Hardware-Komponenten umgesetzt - der Spracherkennungsblock 
mittel eines fur Spracherkennungsaufgaben angepafiten digitalen Signalprozessors und die 
Nachverarbeitungseinheit 3 mittels eines auch zur Realisierung anderer durch fi}c^j*8 
5 zusammengefaSter Systemfunktionen dienenden Controllers. Dies Kit den VorterE daB der 
Signalprozessor eine geringere Rechenkapazitat und eine geringere Speicherkapazitat 
aufweisen kann, da zur Erkennung eingegebener buchstabierter SprachauSerungen sonst 
fur Navigationsprozeduren vorgesehene Systemresourcen mitbenutzt werden. 

10 



15 
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PATENTANSPRUCHE 



1. Verfahren zur Erkennung einer in buchstabierter Form vorliegenden Sprachaufierungs- 
eingabe (s) mit einer ersten Verarbeitungsstufe, in der mirtels einer auf Hidden Markov 
Modellen basierenden Buchstaben-Spracherkennungseinheit (2) eine korrespondierende 
Buchstabenfolge (r) geschatzt wird, und mit einer zweiten Verarbeitungsstufe (3), in der 
unter Verwendung eines statistischen Buchstabenfolgemodells (4) und eines statistischen 
Modells (5) fur die Spracherkennungseinheit (2) das von der erstenVerarbeitungsstufe 
gelieferte Schatzergebnis (r) nachverarbeitet wird, wobei bei der Nachverarbeitung die 
Methode der dynamischen Programmierung eingesetzt wird, 
dadurch gekennzeichnet, 

dafi die der dynamischen Programmierung zugrundeliegende Gitterstruktur, deren 
Kiiotenpunkte zur Zuordnung zu akkumulierten Wahrscheinlichkeitswerten vorgesehen 
sind, in eine Baumstruktur umgesetzt wird und 

dafi bei der Suche nach einem optimalen Baumpfad der A -AJgorithmus eingesetzt wird. 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dafi suboptimale Baumpfade entsprechend N bester Schatzungen fur die Sprachaufierungs- 
eingabe mit N>1 ermittelt werden. 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, 

dafi bei der Suche nach einem optimalen Baumpfad diejenigen Baumpfade, die schon zu 
Beginn der Suche eine gegeniiber anderen Baumpfaden eine kleine Wahrscheinlichkeit 
aufweisen, vorrangig nicht mehr weiterverfolgt werden. 




4. Verfahren nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, 

daf? die erste Verarbeitungsstufe minds eines ersten ICs und die zweite Verarbeitungsstufe 
mittels eines zweiten ICs durchgefiihrt wird. 

5 

5. Verfahren zur Systernsteuerung mittels Sprachsignalen (w, s), bei dem 

eine Eingabe eines aJs Steuersignal dienenden ganzen Wortes (w) und eine Eingabe 
wenigstens eines Teils dieses Wortes in buchstabierter Form (s) vorgesehen ist, 
eine Wort-Spracherkennung (7) zur Erkennung des eingegebenen ganzenWortes (w) 
10 vorgesehen ist, 

eine Buchstaben-Spracherkennung (1), insbesondere nach einem der Anspruche 1 bis 
4, zur Erkennung des eingegebenen buchstabierten Teils (s) des ganzen Wortes (w) 
vorgesehen ist und 

bei dem mit Hilfe des Erkennungsergebnisses (s) der Buchstaben-Spracherkennung (1) 
15 eine Einschrankung eines der Wort-Spracherkennung (7) zugeordneten Vokabulars 

durchgefiihrt wird. 

6. Sprachgesteuertes elektrisches Gerat, insbesondere Navigationssystem fiir Landkraftfahr- 
zeuge, mit Komponenten (1, 7, 8) zur Durchfuhrung eines Verfahrens nach einem der 

20 Anspruche 1 bis 5. 



